# _*_ coding : utf-8 _*_
# @Time : 2022/8/15 13:36
# @Author : Moonquake
# @File : 32.scrapy结构
# @Project : python

# Scrapy项目结构
#   项目名字
#      项目名字
#           spiders文件夹(存储的是爬虫文件)
#           init
#           自定义的爬虫文件    核心功能文件 *********
#      init
#      items    定义数据结构的地方，爬取的数据包含哪些
#      middleware 中间件    代理
#      pipelines  管道  用来处理下载的数据
#      settings  配置文件  robots协议 ua定义等


# response的属性和方法
# response.text   获取的是响应的字符串
# response.body   获取的是二进制数据
# response.xpath  可以直接是xpath方法来解析response中的内容
# response.extrac() 提取seletor对象的data值
# response.extract_first() 提取seletor列表的第一个数据



# 创建项目    scrapy startrpoject 项目的名字
# 跳转到spiders文件的目录下
# cd 项目名字\项目名字\spiders
# 创建爬虫文件
# scrapy genspider 爬虫文件名 域名
# 运行项目
# scrapy crawl 爬虫文件名

# 创建crawlspider文件
# scrapy genspider -t crawl 爬虫文件的名字 爬取的域名